分散、標準偏差(variance, standard deviation)
分散
分散とは,データの散らばりの大きさを表す指標。分散が小さいほど「全員が平均に近い」と言え,分散が大きいほど「平均から遠いデータが多い」と言える
標準偏差
標準偏差(standard deviation, SD)は,データがもっている散布度(ばらつき)の指標。散布度とは,データのなかで個々の値が散らばっている(ばらついている)度合いを示す。散らばっているというのは,ざっくりいうと,高い値も低い値もあるということだと考えてもOK。下のグラフを見ると、横軸が人(1番さんから10番さん),縦軸がテストの点数である。
http://cdn-ak.f.st-hatena.com/images/fotolife/k/kusanagik/20151213/20151213173304.png
左のグラフでは,みんなが同じくらいの点。一方,右のグラフではけっこう点数が高い人も低い人もいる。なので,右のグラフの方が散布度が大きいといえる。
分散を,もとのスケールに戻したものを標準偏差とよぶ。標準偏差とは,ひとことでいうならば,偏差自乗の平均値の根
http://cdn-ak.f.st-hatena.com/images/fotolife/k/kusanagik/20151213/20151213182342.png
データが正規分布(真ん中に近い人が多く,遠い人は少ない)に従っている場合,平均(50)から1標準偏差(±13)まわりに68>%くらいの人がいる,というような予測がきる。2標準偏差の間にはだいたい95%の人が入ります。このような性質を満たすのが,平均偏差ではなく標準偏差である。